GTC 2025 — Blackwell Ultra 与 Vera Rubin
开场:一切始于 GeForce,而 GeForce 回到了 AI
黄仁勋一开场就拿起一张 GeForce RTX 5090:25 年了,GeForce 还在全球卖断货。但他真正想说的不是游戏卡本身,而是一个闭环——"GeForce 把 CUDA 平台 带到了世界,CUDA 让 AI 成为可能,而今天 AI 又回过头来彻底改写了计算机图形学"。他展示的实时画面里,每渲染 1 个像素,AI 要推理出另外 15 个;这 15 个像素必须在数学上正确,还要在帧与帧之间保持时序稳定。"为每一个被数学渲染出的像素,AI 推理出另外 15 个。"
他把这件事当成整个演讲的隐喻:十年前,AI 刚刚进入人类意识;最近五年我们主要在做生成式 AI,教 AI 把一种模态翻译成另一种——文本到图像、文本到视频、氨基酸到蛋白质、属性到化学分子。这彻底改变了计算的本质:"过去我们是检索式计算,提前把内容造好、存下来、用的时候取出来;今天我们是生成式计算,AI 理解上下文、理解我们在问什么,然后生成答案。"
推理时代:世界错估了算力需求 100 倍
这是整场最重要的判断。黄仁勋说:"去年这个时候,几乎全世界都搞错了一件事。AI 的 scaling law 不仅没有放缓,反而被极度加速。我们今天所需的算力,因为 agentic AI、因为 reasoning,轻轻松松就比一年前估算的多出 100 倍。"
他为什么这么说?因为 推理时代 的底层机制变了:两年前的 ChatGPT 是 one-shot——学到什么就一股脑倒出来,简单问题都会答错。而今天的 reasoning 模型会一步一步思考,用 chain-of-thought、best-of-N、一致性检查、路径规划这些技巧。它甚至会把自己的答案代回方程验证——"就像你解完一元二次方程再代回去检查那样"。
带来的后果是:生成的 token 数量爆炸式上升。原来吐一个 token,现在要吐几千上万个;而为了让用户不失去耐心,你又必须把速度再提升 10 倍。"10 倍的 token × 10 倍的速度 = 100 倍的算力,轻松翻番不止。"
更妙的是数据从哪来的问题也被解决了。过去的瓶颈是"人在回路"——人类给的标注就那么多。现在靠 强化学习 + 可验证结果:数学题、勾股定理、数独、几何证明、物理定律……人类已经知道答案的问题空间何止千万。你让 AI 尝试百万次、每次几万个 token,"合成数据生成 + 机器人式自教学"的组合,产生了训练模型所需的数万亿 token。
AI 工厂:从检索到生成,数据中心的物种更替
黄仁勋在这里抛出了他反复讲了一年多的核心叙事:数据中心正在变成 AI 工厂。
他指着一张显示全球数据中心资本支出将冲到一万亿美元的图表说:"我之前说过数据中心建设会达到一万亿美元,我现在非常确信我们很快就会到。两种动态在同时发生。"
第一种动态:加速计算 吃掉绝大部分增长。"通用计算早就走到尽头了,我们早就知道这点。世界正在从'手写软件跑在通用计算机上'迁移到'机器学习软件跑在加速器和 GPU 上'。现在已经过了临界点,我们看到数据中心的拐点正在发生。"
第二种动态:软件的未来需要资本投资。"过去我们写软件、跑在计算机上;未来,计算机本身会生成软件的 token。计算机从一个文件检索器变成了 token 生成器。从检索式计算走向生成式计算,从老的数据中心走向一种新的基础设施——我叫它们 AI 工厂。它们只有一个任务:生成这些 token,然后我们把这些 token 重组成音乐、文字、视频、研究、化学分子、蛋白质。"
他把最得意的一张幻灯片拿出来——那张密密麻麻罗列 CUDA-X 库的图——说:"这是我 20 年来每次 GTC 都在讲的事。cuLitho 把计算光刻加速了,未来每一家有工厂的公司都会有两个工厂:一个造产品,一个造产品背后的 AI。造汽车的工厂和造'汽车 AI'的工厂。"cuOPT 即将开源、cuDSS 加速 CAE、Warp 做物理仿真、Earth-2 做天气预测、cuQuantum 做量子模拟……"人们以为 CUDA 是一个软件,其实 CUDA 之上有一整个库的生态,而正是这些库让 AI 成为可能。"
先 Scale Up,再 Scale Out:Blackwell 机柜的设计哲学
这是全场的硬件高潮。黄仁勋搬出一块 70 磅重的上代 HGX,又搬出一整个 Blackwell NVLink72 机柜,来讲清楚 NVIDIA 为什么要把整机柜当成一颗芯片卖。
"分布式计算的本质是让很多台机器一起解决一个很大的问题,但没有什么能替代 scale up——在你 scale out 之前,你必须先 scale up。两者都重要,但顺序不能错。"(Scale Up 与 Scale Out)
"Hadoop 是天才的想法,它让超大规模数据中心用一堆现成的商用机器解决巨型问题。但我们现在要解的问题太复杂了,那种做法要烧掉的电太多了。如果只靠 scale out,深度学习根本不会发生。所以我们必须先 scale up。"
他解释了为什么要 disaggregate NVLink——把 NVLink 交换机从主板上拆出来、做成独立的交换托盘放到机柜正中间。"结果就是这个:整柜液冷,一台机柜有 60 万个零部件——相当于 20 辆汽车的零件数——120 千瓦,一台 exaflops 级别的计算机挤进一个机柜。"
为什么要这么拼?"因为我们真正想造的是这颗芯片——130 万亿晶体管,其中 20 万亿用于计算。但没有哪条 reticle 极限、哪个工艺节点能做出这颗芯片。所以我们把它 disaggregate 成 Grace Blackwell NVLink72 机柜。这是人类做过的最极致的 scale up。"
这背后还藏着一个更深的判断——数据中心即计算机。"虽然我们谈芯片,但你永远必须从 scale up 开始。芯片不是产品,机柜才是产品,AI 工厂才是产品。"
推理即生意:为什么 Blackwell 比 Hopper 快 40 倍
黄仁勋花了很大篇幅解释一张"token 生产函数"图表。X 轴是单用户每秒 token 数(响应速度),Y 轴是整个工厂每秒 token 数(总产能)。
"推理被很多人误解成一个简单的任务,其实它是终极的极限计算问题。因为推理就是工厂在生产 token,而工厂等于收入和利润,或者没有收入和利润。这个工厂必须以极致的效率和极致的性能来建造,因为它的一切都直接影响你的服务质量、你的收入、你的利润率。"
这里藏着一个很深的工业逻辑:批处理和延迟是一对根本矛盾——你要么把很多请求攒起来一起做(吞吐量高但单用户慢),要么立刻响应(单用户快但总产出低)。"最理想的答案是一个直角的方块——既快又多——但现实中没有工厂能做到。你能做的是最大化曲线下的面积。"
然后他展示杀招:Hopper 一台 1 兆瓦工厂能做到每用户 100 tokens/秒、总产能 250 万 tokens/秒。换到 Blackwell NVLink72 + FP4 + Dynamo,在同样的 reasoning workload 下,"Blackwell 是 Hopper 的 40 倍。一代之内 25 倍的 ISO Power 提升。这就是摩尔定律过去一直在承诺的东西——但现在这是 ISO power,不是 ISO chip,不是 ISO transistor,是 ISO power。能源才是终极瓶颈。"
他顺嘴甩出一句金句:"未来每一座数据中心都是 power limited 的。你的收入由你能拿到多少电力决定。"然后自嘲:"我是 chief revenue destroyer。我的销售团队要抓狂了——我刚说过 Blackwell 开始放量的时候,Hopper 你送人都没人要。"
NVIDIA Dynamo:AI 工厂的操作系统
在 reasoning 场景里,一件事情变得前所未有地复杂:同一次问答会分成两个阶段——prefill(思考、读 PDF、逛 94 个网站做深度研究)和 decode(吐字)。prefill 吃 FLOPS,decode 吃带宽。
"同一台机器,同一批 GPU,我可能需要动态地把更多 GPU 分配给 prefill、更少给 decode——或者反过来。再加上 tensor parallel、pipeline parallel、expert parallel、in-flight batching、disaggregated inference、KV cache 路由……这个软件复杂到令人发指。所以今天,我们发布 NVIDIA Dynamo。"
"Dynamo 本质上是 AI 工厂的操作系统。过去数据中心的操作系统是 VMware,它调度一堆企业 IT 应用。未来不是企业 IT 了,而是 agents;操作系统也不是 VMware 了,而是 Dynamo。而这个操作系统运行在上面的不是数据中心,是 AI 工厂。"
为什么叫 Dynamo?"因为发电机是上一次工业革命的第一件工具。水进去、电出来。烧开水变蒸汽,然后出来的是一种看不见却极其有价值的东西。我们把这个软件命名为 Dynamo,因为我们正在开启下一场革命。"Dynamo 是开源的。
年更节奏:Blackwell Ultra → Vera Rubin → Rubin Ultra → Feynman
"我花了那么多时间讲路线图,是因为建 AI 工厂要提前两三年规划土地、电力、CapEx、工程团队。这不是买笔记本电脑,不是随意开销。所以我必须把未来几年铺在你们面前,这样我不会在明年 5 月突然给你们来一个大惊喜。"
- 今年下半年:Blackwell Ultra NVLink72。FLOPS 提升 1.5 倍、内存提升 1.5 倍(KV cache 会感谢你)、网络带宽翻倍。同架构平滑升级。
- 明年下半年:Vera Rubin NVLink144。纪念发现暗物质的天文学家 Vera Rubin。全新 CPU(比 Grace 快一倍、只有 50 瓦)、全新 GPU、全新 NVLink6、全新 HBM4——"除了机箱以外什么都是新的"。他在这里也纠正了一个命名错误:"过去我把一颗 Blackwell 芯片算成一个 GPU,其实是两个 die。从现在开始,每一个 GPU die 就是一个 GPU。所以 NVLink144 = 144 个 GPU。"(Vera Rubin)
- 2027 下半年:Rubin Ultra NVLink576。每机柜 600 千瓦、250 万个零件、15 exaflops scale-up、4.6 PB/s scale-up 带宽。"别看这只是 1 exaflops 到 15 exaflops 的跳跃——Hopper 记为 1 倍,Blackwell 是 68 倍,Rubin 是 900 倍 scale-up FLOPS。"
- 再下一代:Feynman。
"每年一次架构迭代,每两年一条新产品线——我们把硅片风险、网络风险、机箱风险拆成几块分别承担,这样行业才能跟着我们向前。"
硅光子:为什么机柜之外必须用光
机柜内部用铜线是最佳选择——可靠、便宜、省电——"铜能走 1-2 米就走 1-2 米"。但数据中心已经大到一个体育场,下一代要把几十万、几百万颗 GPU 连在一起,必须用光。
黄仁勋吐槽 transceivers 是个隐藏的能量黑洞:"每一个插件 30 瓦、1000 美元。如果你有 100 万 GPU × 6 个收发器 × 30 瓦 = 180 兆瓦的 transceivers——它们什么运算都没做,只是在挪信号。"
"所以我们做了全球第一款 1.6 Tbps CPO——基于 micro ring resonator modulator (MRM) 的硅光子技术,完全用台积电 COUPE 工艺生产。过去五年我们押了巨大的技术风险,申请了几百项专利。这样我们就可以在数据中心里省下几十兆瓦——60 兆瓦等于 100 个 Rubin Ultra 机柜的电。"这是对 TSMC 工艺栈又一次深度的 Extreme Co-Design。
企业计算:DGX Spark 与 DGX Station
"机器学习重写了整个计算栈——处理器不一样了、操作系统不一样了、上层应用不一样了。连访问数据的方式都不一样了:以后你不再去精确检索数据,你问 Perplexity 就好了。企业 IT 也会一样——我们会有 AI agents,成为数字劳动力的一部分。"
"全球有 10 亿知识工作者,未来可能会有 100 亿数字工作者与我们并肩工作。到今年底,100% 的 NVIDIA 软件工程师都会被 AI 辅助。我非常确定。"
他搬出 DGX Station 和 DGX Spark:"这就是 PC 该有的样子。20 petaflops、72 个 CPU 核心、chip-to-chip interface、HBM 内存,甚至还留了个 PCIe 插槽给 GeForce。这就是 AI 时代的计算机。"存储也要彻底重写——从"检索式存储"变成"语义式存储",数据会被后台持续地 embedding 成知识,你再也不是去 retrieve,而是去"问"。
机器人:可能是有史以来最大的产业
"本 decade 结束前,世界将缺少至少 5000 万个人类劳动力。我们会非常乐意付每人 5 万美元年薪——可现在我们大概要付 5 万美元年薪给机器人。"
物理 AI 的难题和前面讲的一样:数据从哪来、模型架构是什么、scaling law 怎么做?但在 物理 AI 里,可验证奖励是什么?"很简单——物理定律。所以我们需要一个物理引擎,专门为细粒度刚体 / 软体、触觉反馈、精细运动控制而设计,要 GPU 加速到可以在超实时的速度里训练,而且要无缝集成进全球 roboticist 用的 MuJoCo。"
"今天我们宣布 Newton——DeepMind、Disney Research、NVIDIA 三方合作的物理引擎。"小机器人 Blue 从后台走出来,黄仁勋对着它说:"Hey Blue, how do you like your new physics engine? 你刚才看到的是完全实时的物理模拟。这就是未来我们训练机器人的方式。"
他还开源了 Isaac GR00T N1——一个面向人形机器人的通用基础模型,双系统架构(快思考 + 慢思考),灵感来自人类认知科学。"物理 AI 和机器人正在飞速前进。所有人注意这个方向,这很可能是有史以来最大的产业。"
谢幕:三层 AI 基础设施
"让我收尾一下。第一,Blackwell 全面量产、客户需求爆棚——因为 reasoning AI 和 agentic AI 带来了算力拐点。第二,Blackwell NVLink72 + Dynamo 是 Hopper 的 40 倍 AI 工厂性能,推理会是未来十年最重要的 workload。第三,我们给了你年更节奏的路线图。我们在建三种 AI 基础设施——云的 AI 基础设施、企业的 AI 基础设施、机器人的 AI 基础设施。"
"谢谢你们来 GTC。Hey Blue,我们回家吧。"
原文出处:Rev.com 完整转录稿